本报讯(记者周文斌)北京国安资讯设备有限公司历时10年、耗资1500万元所开展的汉字研究整理工作,终于有了理想的结果。该公司所作出的“适用汉字”字库和“适用字库”字符集及属性库两项成果,日前通过了由中国标准化协会主持的专家鉴定。
建立“适用汉字”字库和“适用字库”字符集及属性库是汉字研究和应用的一项基础性工作。国安资讯公司技术总监周锡卫和课题组组长陈一凡率领科技人员,对历代有一定影响的辞书、出版物中出现的可称之为“海量”的汉字进行了系统的清理与研究。他们建立的字库和字符集收字91251个,除包括已制订为国家和国际标准的全部字符集的汉字外,还涵盖了《说文解字》全部楷定字及《康熙字典》、《汉语大字典》、《中华字海》全部所收字,覆盖了80年代台湾教育部门整理的全部汉字,并特别搜集了以上各字集、字典、字书所不包括的古今姓氏、地名用字。因此,该字库和字符集具有收字量大、实用性强、适用地区广泛的特点,可供海内外进行汉字文本印刷、古籍整理、辞书编写、名录制作、地名标注等多方面工作使用。
该成果还有三个特点:其一,为计算机应用和技术处理的需要,字库内的9万余汉字分为一级适用字、二级适用字和备用字三个等级,按层次贮存,既解决了使用中大量缺字的问题,又可避免由于罕用字过多对一般用户输录、检索产生的干扰。这种处理增强了字库的实用性,是一般收字量大的其他字库所不具备的。其二,字符集将历代的异形字进行了初步归纳,依据规范的、尊重历史的、优化的三个原则,确定了每组异形字的领字。领字具有统帅属字、充当称说与检索信息代码的功能。利用这一成果,该字库可进一步生成汉字异形字表,姓氏、地名用字自动识别系统及计算机自动校对系统,它的功能尚可继续扩大。其三,字符集带有汉字属性库,可通过属性库提供的出处、笔画数、首笔笔形、部件数、所属部首、部件的平面布局以及读音等信息,查找每个汉字,调用所需备用字,并取得与各字集、字典、字书的联系。由于这个属性库是开放的,可以不断增加新的参数,因此,随着它的进一步完善,对汉字的研究应用将产生更大的作用。
参加鉴定的专家认为,国安资讯公司的字库和字符集及属性库的上述特点和性能,目前在国内外尚无同类产品可以全部达到。因此,字库和字符集具有国际领先水平。